Average word length | # of sentences | Source |
---|---|---|
12.90 | 14 | http://sah.wikipedia.org/wiki/Уруулар_ааттара |
13.03 | 11 | http://sah.wikipedia.org/wiki/Тыастар_уонна_саҥалар |
13.50 | 17 | http://sah.wikipedia.org/wiki/Дорҕооннор |
13.52 | 13 | http://sah.wikipedia.org/wiki/Уолаттар |
13.63 | 10 | http://sah.wikipedia.org/wiki/Ситникова_Елизавета_Анисимовна |
13.67 | 16 | http://sah.wikipedia.org/wiki/Айыы_үөрэҕин_алҕастара |
13.69 | 12 | http://sah.wikipedia.org/wiki/Киев |
13.72 | 11 | http://sah.wikipedia.org/wiki/Туус_туһата_суох |
13.77 | 26 | http://sah.wikipedia.org/wiki/Иһэр_уу |
13.83 | 13 | http://sah.wikipedia.org/wiki/Сүр_1 |
13.84 | 11 | http://sah.wikipedia.org/wiki/Аһылыгы_наардаан_аһааһын |
13.90 | 16 | http://sah.wikipedia.org/wiki/Олох_биирдэ_бэриллэр! |
13.92 | 11 | http://sah.wikipedia.org/wiki/Ийэ_куту_иитии |
13.98 | 12 | http://sah.wikipedia.org/wiki/Сиэр_туһунан |
14.09 | 10 | http://sah.wikipedia.org/wiki/Айыы_уратылара |
14.10 | 11 | http://sah.wikipedia.org/wiki/Кэрэ_уратыта |
14.12 | 12 | http://sah.wikipedia.org/wiki/Киһи_таҥара_үөскээһинэ |
14.12 | 11 | http://sah.wikipedia.org/wiki/Сомоҕолоһуу |
14.17 | 13 | http://sah.wikipedia.org/wiki/Кэриэс_этии_дьайыыта |
14.17 | 24 | http://sah.wikipedia.org/wiki/Оҕо_өйө-санаата_үөскээһинэ |
14.19 | 20 | http://sah.wikipedia.org/wiki/Одьулуун_нэһилиэгэ_(Чурапчы_улууһа) |
14.20 | 24 | http://sah.wikipedia.org/wiki/Боксаҕа_Россия_2007_сыллааҕы_күрэстэһиитэ |
14.21 | 20 | http://sah.wikipedia.org/wiki/Түүл_туолуута |
14.24 | 11 | http://sah.wikipedia.org/wiki/Түүл_өбүгэлэр_өйдөрө-санаалара |
14.26 | 10 | http://sah.wikipedia.org/wiki/Өй-санаа_сайдыытын_бэлиэлэрэ |
14.31 | 13 | http://sah.wikipedia.org/wiki/Ыстаппаан_Алексеев |
14.33 | 15 | http://sah.wikipedia.org/wiki/Тыл_иччитэ |
14.34 | 36 | http://sah.wikipedia.org/wiki/Маалыкай_(Ньурба_улууһа) |
14.34 | 12 | http://sah.wikipedia.org/wiki/Айыы_этэн_ыраастаныы |
14.38 | 15 | http://sah.wikipedia.org/wiki/Киһи_буолуу |
Average word length | # of sentences | Source |
---|---|---|
17.88 | 11 | http://sah.wikipedia.org/wiki/«Кэскил»_дьыссаат |
16.76 | 11 | http://sah.wikipedia.org/wiki/Сахалыы_таба_суруйуу_быраабылаларын_аан_тыла |
16.65 | 12 | http://sah.wikipedia.org/wiki/Саха_сирин_суруйааччылара |
16.40 | 12 | http://sah.wikipedia.org/wiki/Христианство_үөскээһинэ |
16.25 | 10 | http://sah.wikipedia.org/wiki/Россия_олохтоохторун_икки_тус-туһунан_өйдөрө-санаалара |
16.24 | 31 | http://sah.wikipedia.org/wiki/Суус_сыл_сайдыы_суолунан |
16.13 | 10 | http://sah.wikipedia.org/wiki/Иирсээни_тардыма |
16.10 | 18 | http://sah.wikipedia.org/wiki/Сүрэх_тэбэрин_тухары_(роман) |
16.10 | 10 | http://sah.wikipedia.org/wiki/Куһаҕан_санаалартан_ыраастаныы |
16.05 | 10 | http://sah.wikipedia.org/wiki/Икки_аҥы_арахсыы |
16.00 | 11 | http://sah.wikipedia.org/wiki/АЛРОСА |
15.94 | 12 | http://sah.wikipedia.org/wiki/Эмискэ_байыы_содула |
15.91 | 11 | http://sah.wikipedia.org/wiki/Айылҕа_кистэлэҥ_күүһэ |
15.86 | 10 | http://sah.wikipedia.org/wiki/Куһаҕан_үгэс,_үөрүйэх |
15.75 | 17 | http://sah.wikipedia.org/wiki/Итэҕэл_үөскээһинэ |
15.66 | 15 | http://sah.wikipedia.org/wiki/Куһаҕан_айыыны_оҥорума |
15.63 | 12 | http://sah.wikipedia.org/wiki/Төрүт_тыллар |
15.58 | 21 | http://sah.wikipedia.org/wiki/Харыстааһын_икки_өрүтэ |
15.58 | 18 | http://sah.wikipedia.org/wiki/Уол_оҕону_иитии_уратылара |
15.56 | 11 | http://sah.wikipedia.org/wiki/Үс_кут_уратылара |
15.54 | 11 | http://sah.wikipedia.org/wiki/Улаханнык_сананыма |
15.52 | 12 | http://sah.wikipedia.org/wiki/Айылҕа_бэйэтин_ыраастанар |
15.51 | 12 | http://sah.wikipedia.org/wiki/Таҥара_накааһа |
15.51 | 11 | http://sah.wikipedia.org/wiki/Оҕо_өйүн-санаатын_харыстааһын |
15.48 | 10 | http://sah.wikipedia.org/wiki/Үс_саха_үөскээһинэ |
15.48 | 17 | http://sah.wikipedia.org/wiki/Сахалар_төрүттэрэ_-_тимир_уустара |
15.48 | 14 | http://sah.wikipedia.org/wiki/Өй-санаа_уратыта |
15.46 | 11 | http://sah.wikipedia.org/wiki/Айыы_аймахтара |
15.45 | 15 | http://sah.wikipedia.org/wiki/Былыргы_таҥаралар |
15.41 | 13 | http://sah.wikipedia.org/wiki/Омуктар_ааттара |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words